智能论文笔记

DEXTER: An end-to-end system to extract table contents from electronic medical health documents

Nandhinee PR , Harinath Krishnamoorthy , Anil Goyal , Sudarsun Santhiappan

分类：计算机视觉

2022-07-14

在本文中，我们提出了Dexter，这是一个端到端系统，以从医疗保健文件中存在的表中提取信息，例如电子健康记录（EHR）和福利解释（EOB）。 Dexter由四个子系统阶段组成：i）表检测ii）表类型分类iii）细胞检测；和iv）细胞含量提取。我们建议使用CDEC-NET体系结构以及用于表检测的非最大程度抑制作用，提出一种基于两阶段的转移学习方法。我们根据图像大小来检测行和列设计一种常规的基于计算机视觉的方法，用于使用参数化内核进行表类型分类和单元格检测。最后，我们使用现有的OCR发动机Tessaract从检测到的单元中提取文本。为了评估我们的系统，我们手动注释了现实世界中医学数据集（称为Meddata）的样本，该样本由各种文档（在外观上）组成，涵盖了不同的表结构，例如，诸如边界，部分边框，无边界或无边界，或彩色桌子。我们在实验上表明，Dexter在注释的现实世界医学数据集上优于市售的Amazon swark和Microsoft Azure形式识别器系统

translated by 谷歌翻译

PACMAN: a framework for pulse oximeter digit detection and reading in a low-resource setting

Chiraphat Boonnag , Wanumaidah Saengmolee , Narongrid Seesawad , Amrest Chinkamol , Saendee Rattanasomrerk , Kanyakorn Veerakanjana , Kamonwan Thanontip , Warissara Limpornchitwilai , Piyalitt Ittichaiwong , Theerawit Wilaiprasitporn

分类：计算机视觉

2022-12-09

In light of the COVID-19 pandemic, patients were required to manually input their daily oxygen saturation (SpO2) and pulse rate (PR) values into a health monitoring system-unfortunately, such a process trend to be an error in typing. Several studies attempted to detect the physiological value from the captured image using optical character recognition (OCR). However, the technology has limited availability with high cost. Thus, this study aimed to propose a novel framework called PACMAN (Pandemic Accelerated Human-Machine Collaboration) with a low-resource deep learning-based computer vision. We compared state-of-the-art object detection algorithms (scaled YOLOv4, YOLOv5, and YOLOR), including the commercial OCR tools for digit recognition on the captured images from pulse oximeter display. All images were derived from crowdsourced data collection with varying quality and alignment. YOLOv5 was the best-performing model against the given model comparison across all datasets, notably the correctly orientated image dataset. We further improved the model performance with the digits auto-orientation algorithm and applied a clustering algorithm to extract SpO2 and PR values. The accuracy performance of YOLOv5 with the implementations was approximately 81.0-89.5%, which was enhanced compared to without any additional implementation. Accordingly, this study highlighted the completion of PACMAN framework to detect and read digits in real-world datasets. The proposed framework has been currently integrated into the patient monitoring system utilized by hospitals nationwide.

translated by 谷歌翻译

PicT: A Slim Weakly Supervised Vision Transformer for Pavement Distress Classification

Wenhao Tang , Sheng Huang , Xiaoxian Zhang , Luwen Huangfu

分类：计算机视觉

2022-09-21

自动路面遇险分类有助于提高路面维护的效率并降低劳动力和资源的成本。该任务的最近有影响力的分支将路面图像划分为贴片，并从多实体学习的角度解决了这些问题。但是，这些方法忽略了斑块之间的相关性，并且在模型优化和推理中遇到了低效率。同时，Swin Transformer能够以其独特的优势来解决这两个问题。我们构建了Swin Transformer，我们提供了一个名为\ TextBf {p} avement \ textbf {i} mage \ textbf {c} lassification \ textbf {t} ransformer（\ textbf {pict}）的视觉变压器。为了更好地利用贴片级别的路面图像的判别信息，提出了\ textit {patch labeling conterg}，以利用教师模型在每次迭代期间从图像标签中动态生成贴片的伪标签，并将模型引导到模型上了解补丁的判别特征。 Swin Transformer的广泛分类头可能会稀释特征聚合步骤中遇险斑块的判别特征，这是由于路面图像的遇险面积较小。为了克服这个缺点，我们提出了一个\ textit {Patch Refiner}将补丁聚集到不同的组中，并且仅选择最高的遇险风险组来产生最终图像分类的纤细头部。我们在CQU-BPDD上评估了我们的方法。广泛的结果表明，\ textbf {pict}在检测任务中，p@r中的$+2.4 \％$的大幅度优于第二好的模型，$+3.9 \％\％\％$ f1 $ f1 $ in识别任务和识别任务和1.8倍吞吐量，同时使用相同的计算资源享受7倍的训练速度。我们的代码和模型已在\ href {https://github.com/dearcaat/pict} {https://github.com/dearcaat/pict}上发布。

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

Detecting Environmental Violations with Satellite Imagery in Near Real Time: Land Application under the Clean Water Act

Ben Chugg , Nicolas Rothbacher , Alex Feng , Xiaoqi Long , Daniel E. Ho

分类：计算机视觉

2022-08-18

本文介绍了一种新的，高度结果的设置，用于将计算机视觉用于环境可持续性。浓缩动物喂养行动（CAFO）（又称密集牲畜农场或“工厂农场”）产生了巨大的肥料和污染。在冬季，倾倒粪便构成了重大的环境风险，并在许多州违反了环境法。然而，联邦环境保护署（EPA）和州机构主要依靠自我报告来监视此类“土地应用”。我们的论文做出了四个贡献。首先，我们介绍了CAFO和土地应用的环境，政策和农业环境。其次，我们提供了一个新的高效率数据集（每天至每周至每周）3M/像素卫星图像，从2018 - 20年使用威斯康星州的330个CAFO，并带有手工标记的土地应用实例（n = 57,697）。第三，我们开发了一个对象检测模型，以预测土地应用和一个系统以实时进行推断。我们表明，该系统似乎有效地检测到土地应用（PR AUC = 0.93），并且我们发现了几个异常设施，这些设施似乎定期适用。最后，我们估计2021/22冬季土地应用事件的人口流行率。我们表明，土地应用的普遍性要比设施自我报告的要高得多。该系统可以由环境监管机构和利益集团使用，该系统是在过去冬天根据该系统进行的试点探访的。总体而言，我们的应用程序展示了基于AI的计算机视觉系统解决环境符合近日图像的主要问题的潜力。

translated by 谷歌翻译

Towards Practical Single-shot Phase Retrieval with Physics-Driven Deep Neural Network

Qiuliang Ye , Li-Wen Wang , Daniel Pak-Kong Lun

分类：人工智能 | 计算机视觉

2022-08-18

相位检索（PR）是从其仅限强度测量中恢复复杂值信号的长期挑战，由于其在数字成像中的广泛应用，引起了很大的关注。最近，开发了基于深度学习的方法，这些方法在单发PR中取得了成功。这些方法需要单个傅立叶强度测量，而无需对测量数据施加任何其他约束。然而，由于PR问题的输入和输出域之间存在很大的差异，香草深神经网络（DNN）并没有提供良好的性能。物理信息的方法试图将傅立叶强度测量结果纳入提高重建精度的迭代方法。但是，它需要一个冗长的计算过程，并且仍然无法保证准确性。此外，其中许多方法都在模拟数据上工作，这些数据忽略了一些常见问题，例如实用光学PR系统中的饱和度和量化错误。在本文中，提出了一种新型的物理驱动的多尺度DNN结构，称为PPRNET。与其他基于深度学习的PR方法类似，PPRNET仅需要一个傅立叶强度测量。物理驱动的是，网络被指导遵循不同尺度的傅立叶强度测量，以提高重建精度。 PPRNET具有前馈结构，可以端到端训练。因此，它比传统物理驱动的PR方法更快，更准确。进行了实用光学平台上的大量模拟和实验。结果证明了拟议的PPRNET比传统的基于基于学习的PR方法的优势和实用性。

translated by 谷歌翻译

FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech Self-Supervised Learning

Yeonghyeon Lee , Kangwook Jang , Jahyun Goo , Youngmoon Jung , Hoirin Kim

分类：自然语言处理 | 机器学习

2022-07-01

大规模的语音自我监督学习（SSL）已经出现到语音处理的主要领域，但是，由于其巨大规模而引起的计算成本问题是对学术界的高障碍。此外，语音SSL模型的现有蒸馏技术通过减少层来压缩模型，从而在语言模式识别任务（例如音素识别（PR））中引起性能降解。在本文中，我们提出了Fithubert，它几乎在几乎所有模型组件中都使尺寸较薄，并且与先前的语音SSL蒸馏作品相比，层层更深。此外，我们采用缩短时间来加快推理时间，并提出一种基于提示的蒸馏方法，以减少性能降解。与休伯特相比，我们的方法将模型降低到23.8％，推理时间为35.9％。此外，我们在优越的基准上达到了12.1％的单词错误率和13.3％的音素错误率，这比先前的工作优越。

translated by 谷歌翻译

Multi-Agent Deep Reinforcement Learning for Cost- and Delay-Sensitive Virtual Network Function Placement and Routing

Shaoyang Wang , Chau Yuen , Wei Ni , Guan Yong Liang , Tiejun Lv

分类：人工智能 | 机器学习

2022-06-24

本文提出了一种有效且新颖的多重深度强化学习（MADRL）的方法，用于解决联合虚拟网络功能（VNF）的位置和路由（P＆R），其中同时提供了具有差异性要求的多个服务请求。服务请求的差异要求反映出其延迟和成本敏感的因素。我们首先构建了VNF P＆R问题，以共同减少NP完整的服务延迟和资源消耗成本的加权总和。然后，将关节VNF P＆R问题分解为两个迭代子任务：放置子任务和路由子任务。每个子任务由多个并发并行顺序决策过程组成。通过调用深层确定性策略梯度方法和多代理技术，MADRL-P＆R框架旨在执行两个子任务。提出了新的联合奖励和内部奖励机制，以匹配安置和路由子任务的目标和约束。我们还提出了基于参数迁移的模型重新训练方法来处理不断变化的网络拓扑。通过实验证实，提议的MADRL-P＆R框架在服务成本和延迟方面优于其替代方案，并为个性化服务需求提供了更高的灵活性。基于参数迁移的模型重新训练方法可以在中等网络拓扑变化下有效加速收敛。

translated by 谷歌翻译

Stream-based Active Learning with Verification Latency in Non-stationary Environments

Andrea Castellani , Sebastian Schmitt , Barbara Hammer

分类：机器学习 | 人工智能

2022-04-14

数据流分类是机器学习领域的重要问题。由于数据的非平稳性，其基础分布会随着时间的流逝而变化（概念漂移），因此该模型需要不断适应新的数据统计信息。基于流的主动学习（AL）方法通过交互式查询人类专家以在有限的预算内为最新样本提供新的数据标签来解决此问题。现有的AL策略假设可以立即可用标签，而在现实情况下，专家需要时间提供查询标签（验证延迟），而当请求的标签到达时，它们可能不再相关。在本文中，我们研究了在AL方法上存在概念漂移的情况下，有限，时间变化和未知验证延迟的影响。我们提出了繁殖（PR），这是一种独立的延迟效用估计器，它也预测了所请求但尚不清楚的标签。此外，我们提出了一种依赖漂移的动态预算策略，该策略在检测到的漂移后使用标签预算的可变分布。彻底的实验评估，包括合成和现实世界的非平稳数据集，以及验证延迟和预算的不同设置。我们从经验上表明，所提出的方法始终优于最先进的方法。此外，我们证明，随着时间的及时预算分配，可以提高AL策略的性能，而不会增加整体标签预算。

translated by 谷歌翻译

Mesh-Based Solutions for Nonparametric Penalized Regression

Brayan Ortiz , Noah Simon

分类： (统计)机器学习

2021-12-07

估计回归函数的估计是兴趣的。惩罚回归（PR）是一个统计上有效的，研究的解决问题。不幸的是，在许多情况下，发现PR问题的确切解决方案是计算难以解决的。在此稿件中，我们为这些方案提出了一种基于网格的近似解决方案（MBS）。MBS将NPR的复杂功能最小化转换为有限参数，离散凸起最小化;并允许我们利用现代凸优化的工具。我们在许多明确的示例中显示MBS的应用（包括单一和多变量回归），并探讨参数数量必须随我们的样本大小增加，以便MBS保持NPR的速率 - 最优性。我们还提供了一种有效的算法，以最小化MBS目标，同时有效地利用MB中固有的稀疏性。

translated by 谷歌翻译